平均现场控制(MFC)是减轻合作多功能加强学习(MARL)问题的维度诅咒的有效方法。这项工作考虑了可以分离为$ k $课程的$ n _ {\ mathrm {pop}} $异质代理的集合,以便$ k $ -th类包含$ n_k $均匀的代理。我们的目标是通过其相应的MFC问题证明这一异构系统的Marl问题的近似保证。我们考虑三种情景,所有代理商的奖励和转型动态分别被视为$(1)美元的职能,每班的所有课程,$(2)美元和$(3) $边际分布的整个人口。我们展示,在这些情况下,$ k $ -class marl问题可以通过mfc近似于$ e_1 = mathcal {o}(\ frac {\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {u} |}}}}}} {n _ {\ mathrm {pop}}} \ sum_ {k} \ sqrt {k})$,$ e_2 = \ mathcal {o}(\ left [\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {u} |} \ \ sum_ {k} \ frac {1} {\ sqrt {n_k}})$和$ e_3 = \ mathcal {o} \ left(\ left [\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {} |} \ leftle] \ left [\ frac {a} {n _ {\ mathrm {pop}}} \ sum_ {k \在[k]}} \ sqrt {n_k} + \ frac {n} {\ sqrt {n} {\ sqrt {n \ mathrm {pop}}} \右] \ over)$,其中$ a,b $是一些常数和$ | mathcal {x} |,| \ mathcal {u} | $是每个代理的状态和行动空间的大小。最后,我们设计了一种基于自然的梯度(NPG)基于NPG的算法,它在上面规定的三种情况下,可以在$ \ Mathcal {O}(E_J)$错误中收敛到$ \ Mathcal的示例复杂度{ o}(e_j ^ { - 3})$,j \ in \ {1,2,3 \} $。
translated by 谷歌翻译